home *** CD-ROM | disk | FTP | other *** search
/ Skunkware 5 / Skunkware 5.iso / src / X11 / wais / doc / wais-corp.txt < prev    next >
Text File  |  1995-05-09  |  21KB  |  431 lines

  1.  
  2.  
  3.  An Information System for Corporate Users: Wide Area Information Servers
  4.  
  5.  
  6.                   Brewster Kahle
  7.                Thinking Machines Corporation
  8.                 Brewster@think.com
  9.             245 First Street Cambridge MA 02142
  10.  
  11.                 Art Medlar
  12.             Scolex Information Systems
  13.                    8 April 1991
  14.        Version 3, TMC Tech Report TMC199, original in MSword
  15.  
  16.  
  17. To explore text-based information systems for corporate executives,
  18. four companies have jointly developed a prototype which gives flexible
  19. access to full-text documents.  The four participating companies are
  20. Dow Jones & Co., with its premier business information sources;
  21. Thinking Machines Corporation, with its high-end information retrieval
  22. engines; Apple Computer, with its user interface expertise; and KPMG
  23. Peat Marwick, with its information-hungry user base.  
  24.  
  25. One of the primary objectives of the project is to allow a user to retrieve
  26. personal, corporate, and wide area information through one easy-to-use
  27. interface.  For example, instead of using Lotus Magelleanfor personal
  28. information, Verity Topic for corporate data, and Dialog for published
  29. text, one application can access all three categories of information. The
  30. user isn't required to become familiar with several entirely different
  31. systems.  In addition, since the interface consolidates data from many
  32. different sources, they can be manipulated effortlessly, virtually without
  33. regard to their origins.
  34.  
  35. The Wide Area Information Server (WAIS, pronounced "ways") project is an
  36. experimental venture seeking to determine whether current technologies can
  37. be used to make profitable end-user full-text information systems.  Fifteen
  38. users have been actively using the system for over three months.  They have
  39. integrated it into their workday routine in much the same way as they have
  40. previously integrated spreadsheets and word processors.  This preliminary
  41. success has convinced us that a WAIS-like system can be a valuable tool for
  42. corporate information retrieval.  This paper discusses the design and
  43. implementation of the prototype system.
  44.  
  45.  
  46. Introduction 
  47.  
  48. Electronic publishing is the distribution of textual
  49. information over electronic networks.  It has been emerging as a
  50. viable alternative to traditional print publishing as the necessary
  51. underlying technologies develop.  Among the more essential of these
  52. are:
  53.  
  54.     High Resolution Display Screens 
  55.     Reliable, High-Speed Data Communications 
  56.     Desktop Publishing Systems
  57.     Inexpensive Data Storage Media
  58.  
  59. While these technologies have been developed for uses other than
  60. electronic publishing, they are the necessary precursors for full-text
  61. retrieval systems.  
  62.  
  63. From the users point of view, there are several problems to be
  64. overcome.  First, there must be some way of finding and selecting
  65. databases from a potentially unlimited pool.  Second, although these
  66. databases my be organized in different ways, the user should not need
  67. to become familiar with the internal configuration of each one.
  68. Finally, there must be some practical way of organizing responses on
  69. the users machine in order to maintain control over what may become a
  70. vast accumulation of data.  
  71.  
  72. In addition, developers are faced with a number of architectural
  73. issues.  The system must be scalable; that is, it must allow for the
  74. future growth of both the complexity and number of clients and
  75. servers.  It must be secure; each server's data must be protected from
  76. corruption, and the privacy of the users must be ensured.  Lastly,
  77. since an unreliable source is useless in a corporate environment,
  78. access must be thoroughly robust.
  79.  
  80.  
  81. System Overview
  82.  
  83. The prototype WAIS system takes advantage of current state-of-the-art 
  84. technology, and presents solutions to all of the above problems.  The system 
  85. is composed of three separate parts:  Clients, Servers, and the Protocol 
  86. which connects them. 
  87.  
  88. The Client is the user interface, the server does the indexing and
  89. retrieval of documents, and the protocol is used to transmit the
  90. queries and responses, The client and server are isolated from each
  91. other through the protocol.  Any client which is capable of
  92. translating a users request into the standard protocol can be used in
  93. the system.  Likewise, any server capable of answering a request
  94. encoded in the protocol can be used.  In order to promote the
  95. development of both clients and servers, the protocol specification is
  96. public, as is its initial implementation.
  97.  
  98. On the client side, questions are formulated as English language
  99. questions.  The client application then translates the query into the
  100. WAIS protocol, and transmits it over a network to a server.  The
  101. server receives the transmission, translates the received packet into
  102. its own query language, and searches for documents satisfying the
  103. query.  The list of relevant documents are then encoded in the
  104. protocol, and transmitted back to the client.  The client decodes the
  105. response, and displays the results.  The documents can then be
  106. retrieved from the server.
  107.  
  108.  
  109. Digital Researcher
  110.  
  111. The traditional information research scenario is familiar to anyone
  112. who has ever visited a reference desk at a public or corporate
  113. library.  The client approaches a librarian with a description of
  114. needed information.  The librarian might ask a few background
  115. questions, and then draws from appropriate sources to provide an
  116. initial selection of articles, reports, and references. The client
  117. then sorts through this selection to find the most pertinent
  118. documents.  With feedback from these trials, the researcher can refine
  119. the materials and even continue to supply the user with a flow of
  120. information as it becomes available.  Monitoring which articles were
  121. useful can help keep the researcher on-track.  
  122.  
  123. The WAIS system is an attempt at automating this interaction: the user
  124. states a question in English, and a set of document descriptions come
  125. back from selected sources. The user can examine any of the items, be
  126. they text, picture, video, sound, or whatever.  If the initial
  127. response is incomplete or somehow insufficient, the user can refine
  128. the question by stating it differently.  
  129.  
  130. In addition, the user may also mark some of the retrieved documents as
  131. being "relevant" to the question at hand, and then re-run the search.
  132. The server recognizes the marked documents, and attempts to find
  133. others which are similar to them.  In the present WAIS system,
  134. "similar" documents are simply ones which share a large number of
  135. common words; however, there is potentially no upper limit on the
  136. intelligence of a server in determining what similarity entails.  This
  137. method of information retrieval is called "relevance feedback."  The
  138. idea has been around for many years1 and the first commercial system
  139. utilizing it, DowQuest2, was voted Database of the Year by Online
  140. Magazine in January 1989.
  141.  
  142.  
  143. User Interfaces: Asking Questions
  144.  
  145. Users interact with the WAIS system through the Question interface.
  146. The interface may appear different on various implementations: for
  147. example, a character display terminal will have a different look than
  148. one which is capable of displaying bit-mapped graphics.  The key,
  149. however, is that the user need only become familiar with one interface
  150. which provides access to all available information sources.  
  151.  
  152. The WAIS system, in this first incarnation, was designed to be used by
  153. accountants and corporate executives who are relatively untrained in
  154. search techniques.  Consequently, to aid those users who have neither
  155. the time nor desire to learn a special purpose query language, the
  156. system uses English language queries augmented with relevance
  157. feedback.  While the system's servers currently do not extract
  158. semantic information from the English queries, they do their best to
  159. find and rank articles containing the requested words and phrases.
  160. Used in conjunction with relevance feedback, this method of searching
  161. has proven to be more than adequate for the types of searches and
  162. databases typically encountered.  
  163.  
  164. The illustrations here are taken from the initial WAIStation program
  165. produced at Thinking Machines for the Apple Macintosh.  Several other
  166. interfaces are under development at Apple Computer, Dow Jones, and
  167. elsewhere.
  168.   
  169.                                                                     
  170. Step 1:  Sources are dragged with the mouse into the Question Window.  A 
  171. question can contain multiple sources.  When the question is run, it asks 
  172. for information from each included source.
  173.  
  174.                                                
  175. Step 2: When a query is run, headlines of documents satisfying the query 
  176. are displayed.
  177.  
  178.                                                               
  179. Step 3: With the mouse, the user clicks on any result document to retrieve 
  180. it.
  181.                                                
  182. Step 4: To refine the search, any one or more of the result documents can 
  183. moved to the "Which are similar to:" box.  When the search is run again, 
  184. the results will be updated to include documents which are "similar" to the 
  185. ones selected.
  186. Contacting Remote Sources of Information
  187.                                                               
  188. Figure 1:  The Source description contains all the necessary information for 
  189. contacting an information server.
  190.  
  191. From the users point of view, a server is a source of information.  It
  192. can be located anywhere that one's workstation has access to: on the
  193. local machine, on a network, or on the other side of a modem.  The
  194. user's workstation keeps track of a variety of information about each
  195. server.  The public information about a server includes how to contact
  196. it, a description of the contents, and the cost.  In addition,
  197. individual users maintain certain private information about the
  198. servers they use.  Users need to budget the money they are willing to
  199. spend on information from particular servers, they need to know how
  200. often and when each server is contacted, and they need to assess the
  201. relative usefulness of each server.  This information helps guide the
  202. workstation in making cost effective decisions in contacting servers.
  203.  
  204. With most current retrieval systems, complications develop as soon as
  205. one begins dealing with more than one source of information.  The most
  206. common problem is that of asking a particular question.  For example,
  207. one contacts the first source, asks it for information on some topic,
  208. contacts the next source, asks it the same questions (most likely
  209. using a different query language, a different style of interface, a
  210. different system of billing), contacts the next source, and so on.
  211. One of the primary motivations behind the initial development of the
  212. WAIS system was to replace replace all this with a single interface.
  213.  
  214. With WAIS, the user selects a set of sources to query for information,
  215. and then formulates a question.  When the question is run, the system
  216. automatically asks all the servers for the required information with
  217. no further interaction necessary by the user.  The documents returned
  218. are sorted and consolidated in a single place. to be easily
  219. manipulated by the user.  The user has transparent access to a
  220. multitude of local and remote databases.
  221.  
  222.  
  223. Rerunning Questions - A Personal Newspaper 
  224.  
  225. In addition to providing interactive access to a vast quantity of
  226. information, the WAIS system can also be used as a rudimentary
  227. personal newspaper.  A virtually unlimited number of queries can be
  228. saved, and updated at periodic intervals.  To do this, the user's
  229. workstation is directed to contact each server at certain set times.
  230. When a source of information is contacted, any questions referencing
  231. that source are updated with new documents.  The users can then easily
  232. browse through the results the next morning.  
  233.  
  234. To make the ideal electronic personal newspaper, a system designer
  235. would need certain technologies which are not available today.  Most
  236. computer screens are too small to allow efficient browsing of large
  237. amounts of text.  Additionally, current data transmission speeds do
  238. not allow fast enough scanning if the text is not resident on the
  239. user's machine.  
  240.  
  241. Despite current limitations, the WAIS system employs a number of
  242. features which will be found in the personal newspaper of the future:
  243.  
  244.     Clear displays of which questions have new documents.
  245.     Searches performed at night to hide communications delays.
  246.     Documents stored on disk for future reference.  
  247.     Tools provided to quickly view stored documents.
  248.  
  249. With these techniques, we have established a foundation of user
  250. support and acceptance.  
  251.  
  252.  
  253. Servers 
  254.  
  255. The WAIS system was designed to be used by those who wish to sell
  256. information, as well as those who want to buy it.  It provides a
  257. straightforward mechanism for indexing large amounts of data, making
  258. it available, and advertising the availability.  
  259.  
  260. The system is flexible enough to provide for a variety of billing
  261. methods.  A small database maintainer might make the information
  262. available through a telephone connection.  Using a 900 number, the
  263. billing would be taken care of by the phone company.  A slightly more
  264. sophisticated site might have a password and credit card billing
  265. system.  High volume servers might want to set up flat fee contracts
  266. with customers.  Other methods will certainly emerge as use increases.
  267. The system was designed to be as adaptable as possible to future
  268. financial arrangements.  
  269.  
  270. As the dissemination of information becomes easier, questions of
  271. ownership, copyright, and theft of data must be addressed.  These
  272. issues confront the entire information processing field, and are
  273. particularly acute here.  The WAIS system is designed to keep control
  274. of the data in the hands of the servers.  A server can choose to whom
  275. and when the data should be given.  Documents are distributed with an
  276. explicit copyright disposition in their internal format.  This is not
  277. to say that theft can not occur, but if a client starts to resell
  278. another's data, standard copyright laws can be invoked.  
  279.  
  280.  
  281. The Directory of Servers 
  282.  
  283. As the WAIS system develops, sources of information will proliferate,
  284. making it impossible for any user to keep track of all servers that
  285. may be available at any one time.  To help solve this problem,
  286. Thinking Machines is maintaining a Directory of Servers in a widely
  287. accessible location.  The Directory of Servers contains
  288. indexed textual descriptions of all known servers.  It is queried just
  289. like any other source.  Instead of text documents, however, it returns
  290. source structures, specially formatted files which can be plugged into
  291. a question and used for queries.
  292.  
  293. For example, suppose you needed information concerning the current
  294. gross national product of Mali, but had no idea where to find it.  You
  295. might first ask the directory of servers for "information about the
  296. current economic condition of Mali." The directory would would return
  297. several documents, among them might be a source for the World
  298. Factbook, an on- line almanac maintained by the CIA.  You would then
  299. use this document as the source field of a question, and re-run the
  300. query.  This time, the system would contact the almanac, ask for the
  301. information, and return a document with the data you need.
  302.  
  303. Additionally, the Directory of Servers provides a means for
  304. information providers to advertise the availability of their data.
  305. When a new source becomes available, the developers can submit a
  306. textual description, along with the necessary information for
  307. contacting the server.  This information is added to the directory,
  308. and becomes available to the public.  
  309.  
  310.  
  311. A Common Protocol for Information Retrieval 
  312.  
  313. One of the most far reaching aspects of this project is the
  314. development of an open protocol.  The four companies have jointly
  315. specified a standard protocol for information retrieval.  Creating a
  316. market where new servers can be readily established requires an open,
  317. publicly available protocol.  Ideally this protocol would be an
  318. internationally standardized, yet flexible enough to adapt to new
  319. ideas and technologies; functioning over any electronic network, from
  320. the highest speed optical connections to phone lines.
  321.  
  322. The use of an open and versatile protocol fosters hardware
  323. independence.  This not only provides for a much wider base of users,
  324. it allows the system to seamlessly evolve over time as hardware
  325. technology progresses.  It provides incentive to produce the best
  326. components possible.  For example, the protocol provides for the
  327. transmission of audio and video as well as text, even though at
  328. present most workstations are unable to handle them.  However, they
  329. are free to ignore pictures and sound returned in response to
  330. question, and to display and retrieve only text.  This inability,
  331. though, does not hinder higher-end platforms from exploiting their
  332. greater processing power and network bandwidth.
  333.  
  334. The WAIS protocol is an extension of the existing Z39.50 standard from
  335. NISO3.  It has been augmented where necessary to incorporate many of
  336. the needs of a full- text information retrieval system4.  To allow
  337. future flexibility, the standard does not restrict the query language
  338. or the data format of the information to be retrieved.  Nonetheless, a
  339. query convention has been established for the existing servers and
  340. clients.  The resulting WAIS Protocol is general enough to be
  341. implemented on a variety of communications systems.
  342.  
  343. The success of a WAIS-like system depends on a critical mass of users
  344. and information services.  In order to encourage development and use,
  345. Thinking Machines is not only publishing a specification for the
  346. protocol, but is also making the source code for a WAIS Protocol
  347. implementation freely available.  While this software is available at
  348. no cost, it comes with no support.  We hope that it will facilitate
  349. others in developing servers and clients.
  350.  
  351.  
  352. Future 
  353.  
  354. In developing the WAIS system, the participating companies have
  355. demonstrated that current hardware technology can be effectively used
  356. to provide sophisticated information retrieval services to novice
  357. end-users.  How this might effect information providers is not yet
  358. completely understood.  The users at Peat Marwick found the technology
  359. useful for day-to-day tasks such as researching potential new accounts
  360. and finding resources within their own organization.  Since these
  361. tasks are not restricted to the accounting and management consulting
  362. industries, we are optimistic that this type of technology can be
  363. fruitful and productive in many corporate settings.
  364.  
  365. The future of this system, and others like it, depends upon finding
  366. appropriate niches in the electronic publishing domain.  Potential
  367. uses include making current online services more easily accessible to
  368. end-users; or allowing large corporations to access their own internal
  369. word processor files more efficiently.  It is also possible that
  370. near-term development will focus on a single professional field such
  371. as patent law or medical research.
  372.  
  373.  
  374. Summary 
  375.  
  376. A unique alliance of four companies with complementary interests in
  377. the field of information retrieval have jointly developed a prototype
  378. which gives versatile access to full-text documents.  The system
  379. allows users to retrieve personal, corporate, and wide area
  380. information through one easy-to-use interface.  The WAIS project has
  381. shown that current technologies can be used to make useful,
  382. profitable, and convenient wide area information systems. The success
  383. of the project has convinced us that a WAIS-like system can be a
  384. valuable tool for corporate information retrieval.
  385.  
  386.  
  387. Acknowledgements
  388.  
  389. The design and development of the WAIS Project has been a collective
  390. effort, with contributions and ideas coming from many people.  Among
  391. them: 
  392.  
  393. Apple Computer: Charlie Bedard, David Casseras, Steve Cisler, Tom
  394. Erickson, Ruth Ridder, Eric Roth, John Thompson-Rohrlich, Kevin Tiene,
  395. Gitta Soloman, Oliver Steele, Janet Vratny-Watts.  Dow Jones
  396. News/Retrieval: Clare Hart, Rod Wang, Roland Laird.  Thinking
  397. Machines: Dan Aronson, Franklin Davis, Jonathan Goldman, Chris Madsen,
  398. Harry Morris, Patrick Bray, Danny Hillis, Gary Rancourt, Tracy Shen,
  399. Craig Stanfill, Steve Swartz, Ephraim Vishniac, David Waltz.  KPMG
  400. Peat Marwick: Chris Arbogast, Mark Malone, Tom McDonough, Robin
  401. Palmer.  Scolex Information Systems: Art Medlar. Thanks also to
  402. Advanced Software Concepts for TCPack software.  
  403.  
  404. For More Information
  405.  
  406. Brewster Kahle            Thinking Machines Corporation
  407. Thinking Machines Corporation    245 First Street
  408. 1010 El Camino Real, Suite 310    Cambridge, MA  02142    
  409. Menlo Park, CA  94025        617-234-1000
  410. 415-329-9300 X228    
  411. brewster@Think.com
  412.  
  413.  
  414. 1 Salton, Gerald; McGill, Micheal.  Introduction to Modern Information
  415. Retrieval.  McGraw-Hill, 1983.
  416.  
  417. 2 DowQuest promotional literature available from Dow Jones & Co. Inc.,
  418. 200 Liberty Street, New York, NY 10281.
  419.  
  420. 3 Z39.50-1988: Information Retrieval Service Definition and Protocol
  421. Specification for Library Applications.  National Information
  422. Standards Organization (Z39), P.O. Box 1056, Bethesda, MD 20817.
  423. (301) 975-2814.  Available from Document Center, Belmont, CA.
  424. Telephone 415-591-7600.
  425.  
  426. 4 Franklin Davis et al.  WAIS Interface Protocol Prototype Functional
  427. Specification, Thinking Machines.  Available from Franklin Davis
  428. (fad@think.com) or Brewster Kahle (brewster@think.com).
  429.  
  430.  
  431.